【新开源报道 37】Facebook 开源语音识别工具包wav2letter

查看原文

其他

【新开源报道 37】Facebook 开源语音识别工具包wav2letter

2018-01-09 开源最前线

开源最前线（ID：OpenSourceTop）猿妹整编

来源：GitHub

近日，Facebook AI 研究院开源了端到端语音识别系统 wav2letter，本文是该架构的论文实现，读者可据此做语音转录。

ASR 系统 wav2letter

授权协议：BSD

开发语言：Lua

操作系统：跨平台

开发厂商：Facebook

项目地址：https://github.com/facebookresearch/wav2letter

Facebook AI 研究院近日开源了一款简单高效的端到端自动语音识别（ASR）系统 wav2letter，wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。

wav2letter 简介

wav2letter 是 Facebook AI 研究院今天开源的简单高效的端到端自动语音识别（ASR）系统。该实现的原作者包括 Ronan Collobert、Christian Puhrsch、Gabriel Synnaeve、Neil Zeghidour 和 Vitaliy Liptchinsky。

如果你使用 wav2letter 或相关的预训练模型，需引用其中的一篇论文。

另外，如果想要立刻进行语音转录的，Facebook 还提供了 Librispeech 数据集上预训练模型。

预训练模型：https://github.com/facebookresearch/wav2letter#pre-trained-models

Librispeech 数据集：http://www.openslr.org/12

wav2letter 训练

数据文件夹包含多个用于预处理多种数据集的脚本。目前我们仅提供 LibriSpeech 和 TIMIT。以下是预处理 LibriSpeech ASR 语料库的例子：

在多 GPU 上训练

使用 OpenMPI 进行多 GPU 训练：

这里，我们假定 mpirun 位于$PATH。

安装要求

● MacOS 或 Linux 操作系统

● Torch，我们在下文介绍了安装教程

● 在 CPU 上训练：Intel MKL

● 在 GPU 上训练：NVIDIA CUDA Toolkit (cuDNN v5.1 for CUDA 8.0)

● 读取录音文件：Libsndfile（必须在任何标准发行版中可用）

● 标准语音特征：FFTW（必须在任何标准发行版中可用）

附：新开源报道汇总
《【新开源报道 36】有效减少错误代码！Instagram 开源用于 Python 3 的 MonkeyType 工具》
《【新开源报道 35】国内第一家私有视频通信软件 Tucodec 开源》
《【新开源报道 34】AMD 开源基于 Mesa 的 Vulkan Linux 驱动》
《【新开源报道 33】安全软件公司 Avast 开源机器码反编译器 RetDec》
《【新开源报道 32】谷歌开源 TFGAN：轻量级生成对抗网络工具库》
《【新开源报道 31】国内首套开源持续集成(CI) 解决方案 flow.ci 开源啦》
《【开源推荐 30】苹果开源领域又一深造：开源机器学习框架 Turi Create》
《【新开源推荐 29】AI开发者的福音：360公司宣布开源深度学习调度平台 XLearning！》
《【新开源推荐 28】百度正式开源 Linux 发行版 MesaLock Linux》
《【新开源报道 27】百度开源高性能 Python 分布式计算框架 Bigflow》
《【新开源报道 26】滴滴开源基于 Vue.js 的移动端组件库 cube-ui》
《【新开源报道 25】Google 开源 Docker 镜像差异分析工具 container-diff》
《【新开源报道 24】美团点评开源MySQL闪回工具 —— MyFlash》
《【新开源报道 23】IBM 推出首套开源现代化字体 —— IBM Plex》
《【新开源报道 22】Microsoft 开源用于 VS Code 的 Java Debugger》
《【新开源报道 21】阿里开源容器技术Pouch和P2P文件分发系统“蜻蜓”》
《【新开源报道 20】Uber正式开源其分布式跟踪系统Jaeger》
《【新开源报道 19】Uber与斯坦福大学开源深度概率编程语言Pyro》
《【新开源报道 18】谷歌开放内部工具 Colaboratory 来协助 AI 开发》
《【新开源报道 17】这波开源满分！清华大学开源网络嵌入的工具包 —— OpenNE》
《【新开源报道 16】AI开发者福音！微软亚马逊联合发布深度学习库 Gloun》
《【新开源报道 15】谷歌发布量子开源软件，量子计算机对科学家免费开放》
《【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark》
《【新开源报道 13】Facebook 开源帮助开发者消灭最顽固的软件 bug 的工具》
《【新开源报道 12】不只是阿里巴巴的操作系统，AliOS 宣布开源》
《【新开源报道 11】重磅！阿里巴巴正式开源全球化OpenMessaging和ApsaraCache项目》
《【新开源报道 10】IBM 和谷歌等巨头联手为开发者推出开源容器安全工具Grafeas》
《【新开源报道 9】Google开源Abseil，为C++和Python开发提供支持》
《【新开源报道 8】serverless 领域的福音！Oracle 宣布开源 Fn project》
《【新开源报道 7】苹果在 GitHub 上公布 macOS 和 iOS 内核源码》
《【新开源报道 6】百度开源移动端深度学习框架mobile-deep-learning（MDL）》
《【新开源报道 5】百度正式开源其 RPC 框架 brpc》
《【新开源报道 4】IBM 开源动态的应用服务器运行时环境 Open Liberty》
《【新开源报道 3】微信后台团队最近开源力作：PhxQueue分布式队列》
《【新开源报道 2】喜大普奔！阿里即将开源 ApsaraCache，云数据库 Redis 版分支》
《【新开源报道 1】腾讯 Web UI 解决方案 QMUI Web 正式回迁开源》

●本文编号136，以后想阅读这篇文章直接输入136即可

●输入m获取文章目录

↓↓↓ 点击"阅读原文" 进入GitHub详情页

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死